斯坦福AI团队抄袭清华系大模型一事,在AI圈炸开了锅。
事件起因是5月29日,一个由斯坦福学生组成的AI团队发布了一篇名为《Llama 3-V: Matching GPT4-V with a 100x smaller model and 500 dollars》的文章,称训练出了一个开源多模态模型Llama 3-V。这一模型比 GPT-4、Gemini Ultra、Claude Opus 等模型能力更强,而且训练成本只需要500美元。Llama 3-V模型的团队成员 Aksh Garg 在社交平台X上发帖介绍了这一模型。该帖很快阅读量便超过30万,Llama 3-V 也很快冲上了全球知名开源社区HuggingFace的趋势榜首页。随后,有热心网友发现,Llama 3-V与清华系大模型创业公司面壁智能的MiniCPM-Llama3-V 2.5在模型结构、代码、配置文件等方面几乎一模一样,只是斯坦福AI团队将其中的变量名称做了更改。该网友更是直接将相关的关键证据一一截图,进行列举证明。简言之,Llama3-V疑似套壳抄袭了面壁智能的MiniCPM-Llama3-V 2.5。发现了这一问题的网友在Llama3-V页面上提出了质疑,但Llama3-V页面很快就被作者删除了。目前,Llama3-V 的GitHub项目主页已显示为“404”,HuggingFace上的Llama3-V项目已不可见。作者社交媒体账号上,此前宣传Llama3-V的内容页已经遭到删除。北京时间6月4日凌晨,斯坦福团队的两位成员Siddharth Sharma和Aksh Garg在X上正式道歉。以下为Siddharth Sharma的声明全文:首先,我们要向MiniCPM的原作者道歉。
@AkshGarg03和我还有@mustafaaljadery发布了Llama3V。Mustafa为这个项目编写了代码。Aksh和我都对多模式模型感到兴奋,并且喜欢他向我们描述的在Idefics和Siglip之上的架构扩展。我们在这里的角色是帮助他在媒体和推特上推广这种模式。我们查看了最近的论文,以验证这项工作的新颖性,但我们没有被告知或知道@OpenBMB之前的任何工作。在昨天看到关于这个话题的推特帖子后,我们向Mustafa询问了关于Llama3V的独创性证明,并要求提供训练代码,但到目前为止我们还没有看到任何回应。我们一直在等待Mustafa率先发表声明,但现在我们发表了自己的声明。我们向miniCBM的作者道歉,因为我们没有尽最大的努力来验证和同行评审这项工作的新颖性。展望未来,我们将更加谨慎和勤奋,我们真诚地感谢大家让我们注意到这一点。我们已经删除了所有关于Llama3V的信息,并再次为我们可能造成的不便道歉。
公开资料显示,Siddharth Sharma与Aksh Garg都是斯坦福大学计算机系的本科生,发表过数篇机器学习相关的论文。Siddharth Sharma曾在亚马逊实习过一段时间,目前主要从事与AI和数据相关工作。Aksh Garg 则在SpaceX、斯坦福大学和加州理工学校等知名企业机构都实习过。Aksh Garg 所说的“编写了所有代码”的Mustafa Aljadery则就读于南加州大学,目前其社交平台X 账号已被设为隐私状态。值得注意的是,斯坦福 AI 实验室主任 Christopher David Manning在社交平台发帖谴责了抄袭行为,同时还对清华的开源模型表达了赞赏。这一事件中的另外一个主角面壁智能也进行了公开回应。面壁智能CEO李大海在其朋友圈中发文表示:“技术创新不易,每一项工作都是团队夜以继日的奋斗结果,也是以有限算力对全世界技术进步与创新发展作出的真诚奉献。我们希望团队的好工作被更多人关注与认可,但不是以这种方式。我们对这件事深表遗憾!一方面感慨这也是一种受到国际团队认可的方式,另一方面也呼吁大家共建开放、合作、有信任的社区环境。一起加油合作,让世界因AGI的到来变得更好。”公开资料显示,面壁智能成立于2022年8月,专注于大模型技术创新与应用转化。创始团队主要来自于清华大学自然语言处理实验室(THUNLP),公司CEO李大海是知乎首席技术官(CTO),联合创始人刘知远是清华大学计算机系副教授、博士生导师。天眼查显示,面壁智能目前已完成两轮融资。去年4月,公司完成由知乎、智谱AI投资的数千万人民币天使轮融资;今年4月,公司宣布完成新一轮数亿元融资,由春华创投、华为哈勃领投,北京市人工智能产业投资基金等跟投,知乎作为战略股东持续跟投支持。
对此,网友们炸锅了!还有人表示:“我们的技术流出息了”,你怎么看?
来源 证券时报、读创财经
编辑 吴怡漪 责编 朱峰 校审 谭录岗
监制 于雪